视觉宣传活动的挑战性输入设置之一是,当初始摄像头视图相距甚远时。这样的设置很困难,因为宽的基线会导致物体外观发生巨大变化并引起阻塞。本文为宽基线图像提供了一种新颖的自我监督的视觉伺服伺服方法,这不需要3D地面真相监督。回归绝对相机相对于对象的现有方法需要以3D边界框或网格的形式的对象的3D地面真实数据。我们通过利用称为3D均衡的几何特性来了解连贯的视觉表示形式 - 表示表示作为3D转换的函数以可预测的方式进行转换。为了确保功能空间忠实于基础的大地测量空间,地球保留的约束与均衡相结合。我们设计了一个暹罗网络,该网络可以有效地强制执行这两个几何特性,而无需3D监督。借助学习的模型,可以简单地通过在学习空间中的梯度并用作闭环视觉陶器的反馈来推断相对转换。我们的方法对来自YCB数据集的对象进行了评估,在使用3D监督的最新方法方面显示了视觉伺服任务上有意义的超越性能或对象对齐任务。我们的平均距离误差降低超过35%,成功率超过90%,误差耐受性。
translated by 谷歌翻译
在本文中,我们研究了以自我为中心的场景理解的问题,即从以自我为中心的图像预测深度和表面正常状态。以自我为中心的场景的理解构成了前所未有的挑战:(1)由于头部运动较大,这些图像是从非规范观点(即倾斜图像)中拍摄的,其中现有的几何预测模型不适用; (2)包括手在内的动态前景对象构成了很大一部分的视觉场景。这些挑战限制了从大型室内数据集中学到的现有模型的性能,例如Scannet和Nyuv2,它们主要包括静态场景的直立图像。我们提出了一个多模式的空间整流器,该空间整流器将以自我为中心的图像稳定到一组参考方向上,该图像允许学习连贯的视觉表示。与通常产生过多的以自我为中心图像的透视图的单形空间整流器不同,多模式的空间整流器从多个方向学习,可以最大程度地减少透视图的影响。为了了解动态前景对象的视觉表示,我们提出了一个名为Edina的新数据集(每天的室内活动中以Egintric的深度),该数据集包含超过500K的同步RGBD框架和重力方向。配备了多模式空间整流器和EDINA数据集,我们提出的关于单视深度和表面正常估计的方法明显优于我们的EDINA数据集上的基准,而且在其他流行的EgeCentric数据集中,例如FPHA(FPHA)(FPHA) )和史诗般的kitchens。
translated by 谷歌翻译
整个幻灯片图像(WSI)分类是诊断和治疗疾病的基本任务;但是,精确标签的策划是耗时的,并限制了完全监督的方法的应用。为了解决这个问题,多个实例学习(MIL)是一种流行的方法,它仅使用幻灯片级标签作为一个弱监督的学习任务。尽管当前的MIL方法将注意机制的变体应用于具有更强模型的重量实例特征,但注意力不足是对数据分布的属性的不足。在这项工作中,我们建议通过使用Max-Instance(关键)功能的统计数据来重新校准WSI袋(实例)的分布。我们假设在二进制MIL中,正面袋的特征幅度大于负面,因此我们可以强制执行该模型,以最大程度地利用公制特征损失的袋子之间的差异,该袋子将正面袋模型为未分布。为了实现这一目标,与使用单批训练模式的现有MIL方法不同,我们建议平衡批次采样以有效地使用功能丢失,即同时(+/-)袋子。此外,我们采用编码模块(PEM)的位置来建模空间/形态信息,并通过变压器编码器通过多头自我注意(PSMA)进行汇总。现有基准数据集的实验结果表明我们的方法是有效的,并且对最先进的MIL方法有所改善。
translated by 谷歌翻译
从单个视图图像重建以公制级别的人的3D姿势是一个几何上不成不良的问题。例如,我们不能从单个视图图像测量人对相机的确切距离,而无需额外的场景假设(例如,已知高度)。基于学习的基于学习方法通​​过重建3D构成来规避此问题。然而,有许多应用如虚拟遥读,机器人和增强现实,需要公制量表重建。在本文中,我们示出了与图像一起记录的音频信号,提供互补信息以重建人的度量3D姿势。关键识别是,作为横跨3D空间遍历的音频信号,它们与身体的交互提供有关身体姿势的度量信息。基于这种洞察力,我们介绍了一个称为姿势内核的时间不变传递函数 - 由身体姿势引起的音频信号的脉冲响应。姿势内核的主要属性是(1)其信封与3D姿势高度相关,(2)时间响应对应于到达时间,指示与麦克风的度量距离,(3)它是不变的场景几何配置。因此,它易于概括到看不见的场景。我们设计了一种多级3D CNN,其融合了音频和视觉信号,并学习以公制量表重建3D姿势。我们表明,我们的多模态方法在现实世界场景中产生了准确的公制重建,这是最先进的提升方法,包括参数网回归和深度回归。
translated by 谷歌翻译
在偏置数据集上培训的分类模型通常在分发外部的外部样本上表现不佳,因为偏置的表示嵌入到模型中。最近,已经提出了各种脱叠方法来解除偏见的表示,但仅丢弃偏见的特征是具有挑战性的,而不会改变其他相关信息。在本文中,我们提出了一种新的扩展方法,该方法使用不同标记图像的纹理表示明确地生成附加图像来放大训练数据集,并在训练分类器时减轻偏差效果。每个新的生成图像包含来自源图像的类似内容信息,同时从具有不同标签的目标图像传送纹理。我们的模型包括纹理共发生损耗,该损耗确定生成的图像的纹理是否与目标的纹理类似,以及确定所生成和源图像之间的内容细节是否保留的内容细节的空间自相似性丢失。生成和原始训练图像都进一步用于训练能够改善抗偏置表示的鲁棒性的分类器。我们使用具有已知偏差的五个不同的人工设计数据集来展示我们的方法缓解偏差信息的能力。对于所有情况,我们的方法表现优于现有的现有最先进的方法。代码可用:https://github.com/myeongkyunkang/i2i4debias
translated by 谷歌翻译
本文介绍了一个新的大型多视图数据集,称为Humbi的人体表达式,具有天然衣物。 HUMBI的目标是为了便于建模特异性的外观和五个主要身体信号的几何形状,包括来自各种各样的人的凝视,面部,手,身体和服装。 107同步高清摄像机用于捕获772个跨性别,种族,年龄和风格的独特科目。使用多视图图像流,我们使用3D网格模型重建高保真体表达式,允许表示特定于视图的外观。我们证明HUMBI在学习和重建完整的人体模型方面非常有效,并且与人体表达的现有数据集互补,具有有限的观点和主题,如MPII-Gaze,Multi-Pie,Human 3.6m和Panoptic Studio数据集。基于HUMBI,我们制定了一种展开的姿态引导外观渲染任务的新基准挑战,其旨在大大延长了在3D中建模的不同人类表达式中的光敏性,这是真实的社会远程存在的关键能力。 Humbi公开提供http://humbi-data.net
translated by 谷歌翻译
A key challenge of learning a visual representation for the 3D high fidelity geometry of dressed humans lies in the limited availability of the ground truth data (e.g., 3D scanned models), which results in the performance degradation of 3D human reconstruction when applying to real-world imagery. We address this challenge by leveraging a new data resource: a number of social media dance videos that span diverse appearance, clothing styles, performances, and identities. Each video depicts dynamic movements of the body and clothes of a single person while lacking the 3D ground truth geometry. To learn a visual representation from these videos, we present a new self-supervised learning method to use the local transformation that warps the predicted local geometry of the person from an image to that of another image at a different time instant. This allows self-supervision by enforcing a temporal coherence over the predictions. In addition, we jointly learn the depths along with the surface normals that are highly responsive to local texture, wrinkle, and shade by maximizing their geometric consistency. Our method is end-to-end trainable, resulting in high fidelity depth estimation that predicts fine geometry faithful to the input real image. We further provide a theoretical bound of self-supervised learning via an uncertainty analysis that characterizes the performance of the self-supervised learning without training. We demonstrate that our method outperforms the state-of-the-art human depth estimation and human shape recovery approaches on both real and rendered images.
translated by 谷歌翻译
我们提出了一种新的姿势转移方法,用于从由一系列身体姿势控制的人的单个图像中综合人类动画。现有的姿势转移方法在申请新颖场景时表现出显着的视觉伪影,从而导致保留人的身份和纹理的时间不一致和失败。为了解决这些限制,我们设计了一种构成神经网络,预测轮廓,服装标签和纹理。每个模块化网络明确地专用于可以从合成数据学习的子任务。在推理时间,我们利用训练有素的网络在UV坐标中产生统一的外观和标签,其横跨姿势保持不变。统一的代表提供了一个不完整的且强烈指导,以响应姿势变化而产生外观。我们使用训练有素的网络完成外观并呈现背景。通过这些策略,我们能够以时间上连贯的方式综合人类动画,这些动画可以以时间上连贯的方式保护人的身份和外观,而无需在测试场景上进行任何微调。实验表明,我们的方法在合成质量,时间相干性和泛化能力方面优于最先进的。
translated by 谷歌翻译
在本文中,我们提出了一个空间整流器,以估计倾斜图像的表面正态。倾斜图像特别令人感兴趣,因为更多的视觉数据是由任意定向的传感器(例如车身/机器人安装的摄像机)捕获的。现有方法在预测表面正常的方面表现出有限的性能,因为它们是使用重力对准图像进行训练的。我们的两个主要假设是:(1)视觉场景布局指示重力方向; (2)并非所有表面都由学习数据的结构化分布而被学习的估计量平均表示,因此,每个倾斜图像的转换都比其他图像更响应于学习估计器。我们设计了一个空间整流器,该空间整流器被学会地将倾斜图像的表面正态分布转换为与重力对齐的训练数据分布相匹配的整流图像。除空间整流器外,我们提出了一种新型的截断角损失,在较小的角度误差和与异常值的稳健性下提供了更强的梯度。最终的估计器优于最新方法,包括扫描仪和NYUV2上的数据增强基线,而且在一个名为TILT-RGBD的新数据集上,其中包括相当大的滚动和俯仰摄像头运动。
translated by 谷歌翻译
We introduce an end-to-end computational framework that enables hyperparameter optimization with the DeepHyper library, accelerated training, and interpretable AI inference with a suite of state-of-the-art AI models, including CGCNN, PhysNet, SchNet, MPNN, MPNN-transformer, and TorchMD-Net. We use these AI models and the benchmark QM9, hMOF, and MD17 datasets to showcase the prediction of user-specified materials properties in modern computing environments, and to demonstrate translational applications for the modeling of small molecules, crystals and metal organic frameworks with a unified, stand-alone framework. We deployed and tested this framework in the ThetaGPU supercomputer at the Argonne Leadership Computing Facility, and the Delta supercomputer at the National Center for Supercomputing Applications to provide researchers with modern tools to conduct accelerated AI-driven discovery in leadership class computing environments.
translated by 谷歌翻译